On a testé sa version expérimentale audio et photo

Sortie le 25 septembre, une version expérimentale de ChatGPT, l’intelligence artificielle (IA) générative d’OpenAI, n’est accessible qu’aux abonnés payants déboursant la coquette somme de 23 euros par mois. Elle mérite pourtant notre curiosité, car elle donne un « œil » à cette IA, l’autorisant à déchiffrer les images, ainsi qu’une « bouche », lui permettant de soutenir de véritables discussions à l’oral.

Ces nouveaux « sens » changent-ils l’utilité de cette IA conversationnelle, qui ne passait jusqu’à présent que par l’écrit ? Pour le vérifier, nous avons interagi avec elle pendant quelques heures, sur un smartphone et en français. En voici un premier aperçu :

Des échanges presque naturels

Lorsqu’on pose une question de vive voix à ce ChatGPT en version bêta, sa réponse vocale est identique à celle qu’il donnerait à l’écrit. Il y a pourtant quelque chose de plus naturel, agréable et reposant à échanger à l’oral lorsqu’on est au calme et qu’on a du temps.

Cela paraîtra particulièrement évident aux personnes qui n’aiment pas taper sur smartphone. Les grands curieux, eux, seront tentés de rebondir sur les réponses de l’IA, comme s’ils discutaient avec un infatigable érudit (bien que parfois imprécis), comme le montre cet exemple :

L’échange est d’autant plus fluide que ChatGPT comprend étonnamment bien les requêtes orales, même complexes, et qu’il s’exprime dans un français clair et logique, avec une voix presque naturelle, bien que mâtinée d’une légère coloration anglophone.

Même si de petites défaillances vocales affleurent parfois, on n’a pas l’impression de s’adresser à un robot dur d’oreille comme l’assistant vocal de Google, qui ne comprend vraiment bien que les demandes simples comme la météo ou l’âge des célébrités. Au passage, on constate que ChatGPT progresse : dans le cadre de nos tests, il a commis moins d’erreurs franches que par le passé, quitte à répondre parfois de façon évasive.

Face aux questions intimes, ce ChatGPT expérimental réplique de façon désincarnée. Il s’exprime avec froideur, par points numérotés, ne perdant aucune occasion d’avertir qu’en tant que machine, il est dépourvu de sentiments. Ses blagues tombent à plat, mais son ton de voix est agréable et sa détermination à nous servir si obstinée que certains pourront peut-être s’y attacher. Probablement pas au point de s’en amouracher, tel le personnage joué par Joaquin Phoenix dans le film Her (2013), mais peut-être suffisamment pour lui réserver une place dans leur quotidien.

Le fantasme de l’ordinateur parlant n’est toutefois pas réalisé : ChatGPT sait faire peu de choses pour le moment. Il est incapable de programmer un mémo ou de réserver un billet de train et sa principale compétence est d’aller récupérer des informations sur Internet pour ensuite les résumer. Sans fuir les questions politiques, médicales ou psychologiques, pour lesquelles il est souvent d’assez bon conseil, même s’il répond de façon très générale, sans prendre de risques. Et sans jamais citer ses sources, ce qui ne manquera pas de fâcher les éditeurs de sites d’information, certains s’estimant pillés, voire court-circuités.

Déchiffrer les images

Outre la parole, ce nouveau ChatGPT est doué de la vue : à ce ChatGPT Vision, comme l’a baptisé son éditeur OpenAI, on peut soumettre des images photographiées par smartphone ou récupérées sur Internet. A première vue, ses analyses paraissent impressionnantes : il lit les plans de métro, déchiffre les graphiques ou les cartes et comprend généralement bien les éléments constitutifs des images qu’on lui soumet.

ChatGPT lit cette carte comme ceci : « Le réchauffement climatique en France durant l’été 2022 est illustré par des nuances de rouge. Les zones les plus foncées représentent les régions où les anomalies de température sont les plus élevées. (…) Une grande partie du sud de la France. La région centrale autour de la rivière Loire. Quelques zones dans le nord-est de la France. »

Lorsqu’on se promène dans un zoo, par exemple, il identifie souvent correctement les félins et donne quelques explications à leur propos – par écrit car la voix de ChatGPT ne fonctionne pas quand son œil travaille. Il identifie les plantes d’intérieur et donne des conseils d’arrosage. Lorsqu’on lui montre une coupe de la terre ou une vue anatomique d’un crâne aux légendes intimidantes de brièveté, il les explique clairement.

Ce que répond ChatGPT quand on lui soumet cette photo : « Il s’agit d’une panthère noire, qui est en réalité une variante de couleur de la panthère (léopard en Asie et Afrique, jaguar dans les Amériques) qui présente un mélanisme, ce qui donne à sa fourrure cette couleur noire. Le mélanisme est le résultat d’une mutation génétique qui provoque une surproduction de pigment. »

ChatGPT Vision peut aussi donner des conseils esthétiques ou gastronomiques, suggérer une recette en analysant la photo d’un frigo et donner des pistes d’amélioration pour une photo ou une décoration intérieure. Mais pour l’heure, il lit mal ces images. Ses conseils, assez généraux, peuvent faire réfléchir, mais sont souvent insuffisamment précis, créatifs, et personnalisés pour aider réellement.

Pour améliorer cette photo (ici anonymisée), ChatGPT donne des conseils trop génériques : atténuer le contraste, améliorer la netteté, etc. Il propose également de retravailler les couleurs d’un cliché pourtant capturé en noir et blanc.

Par ailleurs, lorsqu’on lui pose une question précise, il se trompe. Ses réponses aux problèmes mathématiques sont souvent fausses, ses itinéraires de métro peuvent être erronés, ses lectures des graphiques approximatives ou inexactes, ses interprétations des dessins humoristiques mauvaises, bien qu’énoncées avec assurance. Lorsqu’on lui montre un vélo ou un moteur de voiture, il peut se tromper en identifiant le réservoir d’huile ou le dérailleur.

Le Monde

Offre spéciale étudiants et enseignants

Accédez à tous nos contenus en illimité à partir de 8,99 euros par mois au lieu de 10,99 euros

S’abonner

Cette toute première version de ChatGPT Vision donne des réponses souvent floues ou inexactes, et n’est pour cette raison pas encore un outil convaincant. En revanche, la capacité de ChatGPT à converser à l’oral est prometteuse. Au point, peut-être, de préfigurer le futur des IA vocales.

On a testé sa version expérimentale audio et photo

Des échanges presque naturels

Déchiffrer les images

Ajouter un commentaire

Commentaires

Article précédent

« Les outils d’intelligence artificielle...

Article suivant

un ressortissant russe soupçonné...

ChatBox

Projet du moment

Contact